Is human data enough?

  • 2025-04-18

David Silver와의 대담. Welcome to the Era of Experience의 내용을 소개한다.

youtube.com/watch?v=zzXyPGEtseI

인간의 개입(인간으로부터 얻은 데이터, RLHF 같은 인간의 판단 등)을 줄일수록 AI의 성능이 좋아진다는 얘기. 메타 RL(RL 알고리즘 자체를 RL로 만들기)로 얻어진 알고리즘이 인간이 설계한 알고리즘보다 뛰어나더라는 얘기가 흥미로웠다. 인간을 “이중으로 배제”했더니 더 좋아지더라는 뜻.

2025 © ak